Reinforcement Learning/MuJoCo 和连续控制 MuJoCo 和连续控制 # MuJoCo 是什么 刚体动力学 HalfCheetah 环境 连续 action space PPO 训练 HalfCheetah 学会跑步 Last modified: 2026-05-24 ← Gymnasium 详解 PPO 和策略梯度 →